Phương pháp công cụ tìm kiếm thu thập dữ liệu Tối_ưu_hóa_công_cụ_tìm_kiếm

Các công cụ tìm kiếm sử dụng các thuật toán toán học phức tạp để diễn giải những website mà người dùng tìm kiếm, các thuật toán này đôi khi được gọi là các "con nhện" kiểm tra liên kết giữa các website. Các website nhận được nhiều liên kết dẫn về (inbound link) hơn, hoặc các liên kết mạnh hơn, được cho là quan trọng hơn và đúng hơn với những gì người dùng đang tìm kiếm.

Các công cụ tìm kiếm hàng đầu, như Google, Bing và Yahoo!, sử dụng trình thu thập thông tin để tìm các trang cho kết quả tìm kiếm bằng thuật toán của họ. Các trang được liên kết từ những trang được xếp hạng trong bộ dữ liệu của công cụ tìm kiếm khác không cần phải được khai báo vì chúng được tìm thấy tự động. Yahoo!, DMOZ khi vận hành trước kia đều yêu cầu khai báo thủ công và sự phê duyệt của con người.[23] Google cung cấp Google Search Console giúp tạo và khai báo Sơ đồ website XML miễn phí để đảm bảo rằng tất cả các trang được tìm thấy.[24]

Trình thu thập dữ liệu web cho công cụ tìm kiếm có thể xem xét một số yếu tố khác nhau khi thu thập dữ liệu website. Không phải mọi trang đều được xếp hạng bởi các công cụ tìm kiếm. Khoảng cách của các trang từ thư mục gốc (root directory) của một website cũng có thể là một yếu tố trong việc các trang có được thu thập thông tin hay không.[25]

Ngày nay, hầu hết mọi người đang tìm kiếm trên Google bằng thiết bị di động.[26] Vào tháng 11 năm 2016, Google đã công bố thay đổi lớn đối với cách thu thập dữ liệu website và bắt đầu xếp hạng theo ưu tiên cho thiết bị di động.[27]

Ngăn chặn thu thập dữ liệu:

Để tránh bị lưu các nội dung không mong muốn, nhà quản trị website có thể ngăn “con nhện” thu thập dữ liệu một số tệp hoặc thư mục thông qua tệp robot.txt tiêu chuẩn trong thư mục gốc của tên miền. Ngoài ra, một trang có thể được loại trừ khỏi cơ sở dữ liệu của công cụ tìm kiếm bằng cách sử dụng thẻ meta dành riêng cho robot (thường là <meta name = "robot" content = "noindex">). Khi công cụ tìm kiếm truy cập vào một website, tệp robots.txt nằm trong thư mục gốc là tệp được thu thập thông tin đầu tiên. Sau đó, tệp robots.txt được phân tích cú pháp và sẽ hướng dẫn cho robot trang nào không được thu thập thông tin. Vì trình thu thập thông tin của công cụ tìm kiếm có thể giữ một bản sao được lưu trong bộ nhớ cache của tệp này, đôi khi nó có thể thu thập dữ liệu các trang mà quản trị viên web không muốn thu thập thông tin. Các trang thường không được thu thập thông tin bao gồm các trang đăng nhập cụ thể như giỏ mua hàng và nội dung dành riêng cho người dùng, chẳng hạn như kết quả tìm kiếm từ các tìm kiếm nội bộ. Vào tháng 3 năm 2007, Google đã cảnh báo các nhà quản trị website rằng họ nên ngăn chặn việc lập chỉ mục kết quả tìm kiếm nội bộ vì những trang đó bị coi là spam tìm kiếm.[28]

Tài liệu tham khảo

WikiPedia: Tối_ưu_hóa_công_cụ_tìm_kiếm http://www.google.com/analytics/ http://www.nytimes.com/2011/02/13/business/13searc... http://searchengineland.com/newspapers-amok-new-yo... http://www.thinkpink.com/bp/Thesis/Thesis.pdf http://help.yahoo.com/l/us/yahoo/search/basics/bas... http://users.monash.edu/~lloyd/tilde/InterNet/Sear... http://ilpubs.stanford.edu:8090/347/ http://infolab.stanford.edu/~backrub/google.html https://www.bing.com/webmaster/help/webmaster-guid... https://googleblog.blogspot.com/2009/12/personaliz...